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摘 要 : 针对 苹果 霉 心 病 无 法 有 效 根 据 外 表 进 行 识 别 ， 且 传统 检测 方法 具有 设备 复杂 、 成 本 高 昂 等 问题 ， 
本 研究 通过 采集 苹果 介 电 参数 构建 苹果 霉 心病 检测 模型 ， 从 而 实现 简单 快速 的 苹果 霉 心病 无 损 检 测 。 基 于 
LCR 测 量 仪 采集 220 个 苹果 的 108 项 介 电 指标 《9 个 频率 下 的 12 项 介 电 指标 ) 作为 原始 参数 ， 使 用 数据 标准 
化 、 主 成 分 分 析 算 法 等 对 数据 进行 预 处 理 ， 并 利用 BP 神 经 网 络 、 支 持 向 量 机 、 随 机 森林 算法 构建 霉 心 病 果 
检测 模型 。 试 验 结果 表明 ， 基 于 随机 森林 算法 构建 的 霉 心 病 果 检测 模型 性 能 最 佳 ， 在 150 个 苹果 构建 的 训练 
集 和 70 个 苹果 构建 的 测试 集中 分 类 准确 率 分 别 达到 96.66% 和 95.71%; 基于 采用 BP 神 经 网 络 构建 的 霉 心 病 
果 检 测 模型 效果 次 之 ， 分 类 准确 率 分 别 可 达到 94.66% 和 94.29%; 基于 使 用 支持 向 量 机 构建 的 模型 检测 效果 
相对 较 差 ， 分 类 准确 率 分 别 为 93.33% 和 91.43%。 试 验 结果 表明 ， 使 用 随机 森林 构建 的 模型 可 以 更 有 效 地 识 
别 圳 心病 果 和 好 果 。 本 研究 可 为 苹果 病虫害 及 苹果 品质 无 损 检 测 等 提供 参考 。 
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1 引言 使 用 肉眼 分 辩 芋 果 是 否 患 有 霉 心病 。 因 此 便捷 忆 
速 地 检测 苹果 是 否 感染 填 心 病 对 于 苹果 品质 检 
MELAESERAnmXNAmGADmR go 测 、 芋 果 的 采 后 管理 等 具有 重要 的 现实 意义 。 
浙 导 致 果肉 的 腐烂 "， 但 观察 其 外 表 却 无 法 发 现 uc ak 
Hanae. BTR Ae 。 的 方法 ， 主 要 包括 近 红 外 光谱 “、 计 算 机 视 
素 和 曲 棒 考 素 等 毒素 中 ， 具 有 影响 人 体 生育 、 致 ” 觉 ”、 核 磁 共 振 “”、 介 电 特 征 “” E, Me- 
认 、 致 突变 等 毒 理 作用 ， 对 人 体 健康 产生 较 大 威 ”Glone 等 "使 用 石英 亢 铭 灯 照射 蔷 果 ， 获 取 其 近 
胁 。 替 心病 发 病 时 主要 作用 苹果 心室 ， 无 法 有 效 红外 光谱 ， 并 据 此 构建 出 苹果 褐 变 在 线 检测 系 
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统 ， 最 优 模型 决定 系数 可 达 90%, Shenderey 
等 使 用 近 红外 光谱 技术 ， 构 建 苹果 霉 心 病 检 
测 模型 ， 试 验 结果 表明 霉 心病 检测 成 功率 达到 
90.1%， 其 中 霉 心 病 果 的 识别 准确 率 为 88.4%， 
好 果 的 识别 准确 率 为 91.7%。 李 顺 峰 等 拉 通过 
采集 苹果 的 近 红 外 漫 射 光谱 ， 并 使 用 多 元 散射 校 
正 、 标 准 正太 变量 变换 等 不 同 的 预 处 理 方法 进行 
处 理 ， 之 后 使 用 主 成 分 分 析 算 法 进行 数据 降 维 ， 
从 而 构建 出 相应 的 检测 模型 ， 结 果 表 明 训 练 集 识 
别 准确 率 达 89.9%， 测 试 集 识别 准确 率 达 87.8%。 
王 富 春 等 "使 用 基于 计算 机 视觉 的 方法 ,设计 
了 苹果 霉 心病 病变 程度 的 检测 方法 ， 试 验 结果 表 
明 误 检 率 为 8.87%， 可 以 较为 有 效 地 测量 苹果 和 霉 
心病 变 程度 。Stroshine |! 使 用 低频 磁 共 振 设 备 ， 
并 安装 高 速 传 感 器 对 苹果 进行 无 损 检 测 ， 判 别 准 
确 率 达到 88% LJ E. skr MES UU 通过 采集 苹果 
的 介 电 特征 ， 并 对 苹果 阻抗 、 相 对 介 电 常数 和 损 
耗 因 数 等 内 部 品质 与 介 电 特征 之 间 的 关系 进行 了 
人 研究， 发 现 可 以 通过 介 电 特征 达到 判别 苹果 内 部 
寺 征 的 目的 。 李 芳 等 "使 用 LCR 测量 仪 采集 苹 
果 在 100 Hz~3.98 MHz 间 的 介 电 参 数 ， 并 通过 稀 
玻 主 元 分 析 、 支 持 向 量 机 、 人 工 神 经 网 络 等 建 
模 方法 构建 对 应 的 分 类 器 ， 经 过 十 折 交 叉 验证 
分 析 ， 结 果 表 明 对 于 霉 心病 果 的 识别 准确 率 可 
i^ 94%, 

相 较 于 其 他 检测 方法 ， 使 用 介 电 方式 具有 检 
测 灵敏 性 高 ， 设 备 简单 、 成 本 低 、 易 于 实现 的 特 
点 ， 但 在 苹果 霉 心病 无 损 检 测 领 域 却 较 少 有 人 使 
用 介 电 方式 ， 且 已 有 文献 着 重 于 分 析 苹 果 霉 心病 
对 介 电 参数 的 影响 ， 所 构建 的 苹果 霉 心病 检测 模 
型 识别 准确 率 也 有 进一步 提高 的 空间 。 本 研究 通 
过 增加 霉 心病 果 样 本 数量 ， 采 用 与 已 有 研究 不 同 
的 数据 预 处 理 及 建 模 方法 ， 提 高 霉 心病 果 检 测 正 
确 率 ， 保 证 所 建 模型 的 准确 性 和 有 效 性 。 本 研究 
使 用 数据 标准 化 、 主 成 分 分 析 算 法 等 进行 介 电 数 
据 预 处 理 ， 使 用 BP 神 经 网 络 、 支 持 向 量 机 和 随 
机 森林 算法 构建 苹果 霉 心病 检测 模型 ， 以 进一步 
提高 苹果 霉 心病 的 检测 准确 率 。 


2 材料 与 方法 


2.1 试验 材料 


本 研究 以 苹果 9 种 频率 下 的 12 项 介 电 指 标 为 
研究 对 象 ， 所 使 用 苹果 采集 自 陕西 省 白水 县 西北 
农林 科技 大 学 苹果 试验 站 ， 品种 为 “富士 "， 通 
过 人 工 精 心 选 择 挑选 一 批 好 果 和 疑似 霉 心 病 果 。 
从 中 挑选 大 小 相似 、 颜 色相 近 、 表 皮 无 损伤 的 苹 
果 220 个 ， 于 室温 下 储藏 。 


2.2 苹果 介 电 参数 采集 系统 


图 1 所 示 为 苹果 介 电 参数 采集 系统 ， 所 使 用 
主要 设备 为 日 本 日 置 3332-$0 型 LCR 测试 仪 ， 测 
试探 头 型 号 为 2000 4 端 开 尔 文 夹 。 


È: 1. 计算 机 2. 日 本 日 置 3532-50 Æ LCR 测试 仪 3. JE E A 
4. 平行 电极 板 5. 测试 探头 6. 底座 及 支架 
Al 苹果 介 电 参数 采集 系统 

Fig. 1 Acquisition System of apple dielectric parameter 

为 避免 外 界 环 境 所 导致 的 系统 误差 ， 采 集 苹 
果 介 电 数 据 时 首先 将 苹果 置 于 室内 24 h， 待 苹果 
温度 与 室内 温度 平衡 后 将 苹果 放 入 屏蔽 箱 ， 上 下 
移动 平行 电极 板 使 苹果 紧 贴 于 平行 电极 板 之 上 ， 
使 用 LCR 测 试 仪 探头 夹 住 平行 电极 板 进 行 测量 ， 
介 电 参数 通过 RS-232 串 行 接口 传输 到 电脑 上 。 
采集 数据 时 沿 果 实 最 大 横 截 面 测量 ， 以 保持 苹果 
与 平行 电极 板 间 接触 面积 最 大 ， 保 证 所 获取 介 电 
数据 可 以 准确 反映 苹果 内 部 品质 。 

苹果 的 理化 性 质 与 介 电 特性 在 频率 为 以 10 
为 底 的 对 数 下 相关 关系 更 加 明显 “!， 因 此 本 研 
究 使 用 158、251、398、15,800、25,100、39,800、 
1,580,000、2,510,000 和 3,980,000 Hz 共 9 个 频率 ， 
每 个 频率 下 采集 12 项 介 电 指标 ， 所 采集 介 电 指 
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标 如 表 1 所 示 。 行 标准 化 处 理 。 
表 1 苹果 12 项 介 电 参 数 说 明 进行 数据 扁平 化 处 理 时 ,分 别 将 每 个 苹果 的 
Table 1 Illustration of 12 dielectric parameters 108 项 指标 由 9 X 12 的 二 维和 矩阵 转换 为 1 X 108 
介 电 参 数 编号 。 ”符号 解释 单位 的 一 维和 矩阵 ， 同 时 将 所 有 的 苹果 数据 进行 拼接 ， 
1 Z ELS 9 最 终 形成 220 X 108 的 苹果 介 电 数据 库 。 
3E 3-00 4r di UI de MRF RE 
4 Rs 串联 电阻 Q 的 ， 因 此 相同 介 电 指标 在 不 同 频率 下 数据 会 产生 
i ANA : 较 大 的 差异 ， 如 图 2 所 示 。 在 同一 频率 中 不 同 的 
7 Lp 并 联 电感 H 介 电 指标 由 于 各 自 量 纲 的 不 同 ， 数 据 的 大 小 也 会 
Sh : 存在 较 大 差异 ， 如 图 3 所 示 。 
10 0 EH UNI (9) Z 15800 
S E $ pene IT 140 F i Faso 
er 7 M B 120 F M . E 
© 采集 数据 时 ， 分 别 为 每 个 苹果 进行 编号 ， 每 
T 项 介 电 指 标 将 其 频率 作为 下 标 ， 如 Z。 表 示 该 全 = 
= 果 在 频率 为 158 Hz 下 所 采集 的 复 阻抗 ， 其 他 介 EÈ 
N 电 指标 同 理 可 得 。 同 时 为 避免 采集 过 程 中 系统 性 
= 误差 对 试验 效果 产生 影响 ， 每 个 苹果 分 别 采 集 5 
CN 次 数据 ， 最 后 以 5 次 数据 的 平均 值 作为 该 苹果 的 25 50 75 100 125 150 175 200 25 
E 介 电 数据 。 苹果 编号 /个 
d 采集 完成 电学 指标 之 后 ， 对 每 个 苹果 进行 破 图 2 不 同 频率 下 复 阻抗 分 布 趋势 
a 坏 性 试验 ， 观 察 其 是 否 为 霉 心 病 果 ， 最 终 确 认 霉 Fig. 2 Distribution trend of complex impedance at different 
X 心病 果 164 个 ， 好 果 56 个 。 划 分 训练 集 与 测试 集 frequencies 
£ 时 ， s 110 a id 果 和 40 T ae " Pes APER TOR reet ti OT 
a aa 2 余 id 个 霉 心病 果 和 16 个 好 果 作 为 测 I leto tri tute 
试 集 进行 后 续 试 验 。 ‘HE - deRp 158)Q 
| Room [ lg(Cp_158)J/F 
2.3 原始 数据 预 处 理 È lm * lg(Lp_158YH 
使 用 LCR 仪 采集 到 介 电 人 参数， 由 于 数据 格 ma 
式 是 以 二 维 表 的 形式 存储 ， 即 对 于 每 一 个 苹果 而 | n penitentie n 
p 


言 ， 其 介 电 数据 都 可 视 为 9 X 12 的 二 维 数组 ， 
对 于 所 有 数据 可 视 为 220 X 9 x 12 的 三 维和 矩阵 。 
但 是 此 数据 格式 不 利于 进行 数据 处 理 ， 因 此 需要 
进行 数据 扁平 化 操作 。 与 此 同时 ， 所 采集 的 介 电 
不 均匀 ， 数 据 大 小 有 明显 差异 。 不 同 的 介 电 指 标 
具有 不 同 的 量 纲 ， 导 致 采集 到 的 介 电 指标 数据 相 
差 较 大 。 为 防止 试验 中 大 数据 对 小 数据 的 影响 ， 
消除 不 同 指标 间 的 量 纲 影 响 ， 需 要 对 原始 数据 进 


25 50 75 100 125 150 175 200 
苹果 编号 /个 
注 : 纵 坐标 使 用 对 数 表 示 
图 3 相同 频率 下 不 同 介 电 指 标 分 布 趋势 
Fig. 3 Distribution trend of different dielectric indices 


at the same frequency 


图 2 中 以 复 阻抗 为 例 展示 了 其 在 15,800、 
25,100 和 39,800 Hz 中 的 分 布 趋势 ， 从 中 可 以 观 
察 到 不 同 频率 对 复 阻 抗 具 有 较 大 影响 ， 随 着 频率 
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的 上 升 ， 复 阻抗 值 以 倍数 形式 扩 增 。 图 3 中 展示 
了 158 Hz 下 并 联 电阻 、 并 联 电 感 及 并 联 电容 的 
变化 情况 ， 因 为 三 者 之 间 数 据 相 差 巨 大 ， 所 以 使 
用 对 数 刻度 的 样式 进行 展示 ， 可 以 观察 到 三 者 处 
于 不 同 分 布 ， 相 互 之 间 具 有 数量 级 差异 。 

由 于 数据 间 的 巨大 差异 ， 不 进行 数据 预 处 理 
将 有 较 大 概率 导致 后 续 试 验 中 较 大 的 数据 训练 时 
占据 更 大 的 比重 ， 较 小 的 数据 则 占据 更 小 的 比重 
甚至 于 直接 被 忽略 。 而 较 小 的 数据 中 也 可 能 蕴藏 


g: * Z158 


复 阻 抗 /MQ 


[E 


. D LEN. 
> 人 Ls IPM. E 
F- Y et mee me : ae D ntt 9, PLE DS 


0 25 50 75 100 125 150 175 200 
苹果 编号 /个 
(a) 原 始 数据 复 阻 抗 分 布 


3. ^ Z 15800 
~ Z 25100 
* Z 39800 
2 下 1 x à 
EE: "ES Te 
Pa am i ;4i 
全 Pg 
S lr : id .0 $a 
is "EE "M d T 4% g 
Ed k A 2 ao 
L1 4 A 和 . . . ° n 
w OF, * ff ry a? ot iia $i 
à tta. at 255 á "E i C ane 
e Sez » is 2 . ss La e Q1 à $4 
-] sh Py De “as ME 4 g ^ $ : 
A a 二 2 " 
tes 
-2 : 4 n 


0 25 50 75 100 T25 150 175 200 
苹果 编号 /个 
(c) 标 准 化 后 不 同 频率 下 复 阻 抗 分 布 


着 较为 重要 的 信息 ， 因 此 需要 将 原始 数据 进行 处 
理 ， 消 除 不 同 量 纲 的 影响 。 

预 处 理 时 使 用 了 Z-score 标 准 化 方法 对 原始 
数据 进行 处 理 ， 其 数学 模型 如 下 所 示 。 


x-x 


y= (1) 
c 
其 中 ,x 为 标准 化 后 的 数据 ; x 为 原始 数据 ; 
x 为 原始 数据 均值 ; o 为 原始 数据 标准 差 标准 化 
后 数据 ， 如 图 4 所 示 。 


" * Z 158 


复 阻 抗 /Q 


Pa a t m reru Let nu 
D Th LLL . NL » i 


25 i 50 75 100 125 150 175 200 
苹果 编号 /个 
(b) 标 准 化 后 复 阻 抗 分 布 
^ Rp 158/0 


~ Cp_158/F 
* Lp 158/H 


指标 分 布 


0 25 50 75 100 125 150 175 200 
苹果 编号 /个 
(d) 标 准 化 后 相同 频率 下 不 同 指标 分 布 


图 4 介 电 参数 标准 化 前 后 数据 分 布 对 比 


Fig. 4 Distribution comparison of dielectric parameters before and after standardization 


图 4 (a) 是 原始 数据 中 Zs 的 数据 分 布 情况 ， 
图 4 (b) 是 经 过 标准 化 后 Zis 的 数据 分 布 情况 。 
两 者 对 比 可 以 看 出 两 者 数据 分 布 几乎 没有 变化 ， 
但 是 数据 分 布 区 间 已 经 大 大 减 小 ， 同 时 数据 间 的 
关联 性 得 到 了 很 好 的 保留 ， 证 明了 标准 化 后 的 数 


据 依旧 有 效 。 通 过 对 比 图 2 与 图 4 (c) 可 以 得 
到 ， 标 准 化 后 的 数据 可 以 很 好 地 将 不 同 频率 下 的 
数据 映射 到 较 小 的 区 间 ， 同 时 可 以 保留 数据 间 的 
关联 性 。 同 理 ， 观 察 图 3 与 图 4 (d) 可 得 ， 经 标 
准 化 后 ， 数 据 可 以 消除 不 同 指标 间 度 量 单位 带 来 
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的 影响 ， 并 可 很 好 地 保留 原始 数据 的 原 有 信息 。 
2.4 建 模 方法 


介 电 特性 数据 分 析 方 法 常用 的 算法 有 BP 神 
经 网 络 (Back Propagation Neural Network， 
BPNN) 预测 模型 中 、 支 持 向 量 机 (Support 
Vector Machine, SVM) "和 随机 森林 (Random 
Forest, RF) 2 等 模型 。BPNN 是 一 种 按照 数据 
间 误 差 进 行 逆 向 传播 训练 网 络 的 多 层 前 馈 神经 网 
络 ， 是 应 用 最 广泛 的 神经 网 络 之 一 ， 具 有 优秀 的 
非 线 性 映射 能 力 ， 在 众多 领域 有 着 不 俗 的 表现 。 
SVM 是 一 种 按照 监督 学 习 方式 对 数据 进行 分 类 
的 模型 ， 可 以 使 用 核 方法 进行 非 线 性 映射 ， 在 分 
类 领域 占据 着 重要 的 地 位 。RF 是 采取 了 集成 思 
想 的 算法 ， 将 多 个 弱 分 类 器 通过 组 合 变 成 一 个 强 
分 类 器 。REF 通 过 随机 选取 不 同 的 训练 样本 和 数 
据 特征 ， 根 据 每 种 训练 样本 和 数据 特征 构建 出 对 
应 的 决策 树 ， 通 过 统计 和 森林 中 所 有 决策 树 的 分 类 
结果 ， 从 而 得 出 最 终 的 分 类 结果 ， 在 多 种 数据 集 
中 都 拥有 着 优秀 的 表现 ， 且 相 较 于 其 他 算法 可 以 
有 效 降低 训练 时 长 。 

本 研究 根据 经 预 处 理 并 使 用 主 成 分 分 析 
(Principal Component Analysis, PCA) ^ 算法 降 
维 后 所 得 主 成 分 作为 模型 输入 ， 结 合 BPNN、 
SVM 以 及 REF 构建 苹果 霉 心病 分 类 模型 ， 对 三 种 
建 模 方 法 分 别 构建 对 应 的 分 类 模型 ， 通 过 对 比分 
析 确 定 最 优 的 模型 。 


3 结果 与 分 析 


3.1 介 电 数据 降 维 


数据 采集 时 通过 9 个 不 同 的 频率 采集 苹果 的 
12 项 介 电 参数 ， 因 此 对 于 每 个 苹果 而 言 ， 不 同 频 
率 下 的 某 些 介 电 指 标 经 过 标准 化 后 蕴藏 的 信息 量 
可 能 会 极其 相似 ， 导 致 信息 元 余 ， 因 此 需要 使 用 
降 维 算法 消除 数据 间 的 信息 元 余 。 

将 标准 化 之 后 的 介 电 数 据 采用 PCA 方 法 降 
维 后 ， 其 前 30 项 主 成 分 贡献 率 占 比如 图 5 所 示 。 

从 图 中 可 以 观察 到 ， 第 十 主 成 分 之 后 提供 的 


贡献 率 /% 
AS PCA 各 主 成 分 贡献 率 占 比 


Fig. 5 PCA contribution ratio of principal components 


贡献 率 已 经 极其 微小 ， 结 合 具体 数值 分 析 ， 第 一 
主 成 分 (PCI) 贡献 率 达到 43.69%， 第 二 主 成 分 
(PC2) 、 第 三 主 成 分 (PC3) 和 第 四 主 成 分 
(PC4) 的 贡献 率 分 别 达 到 了 14.19% 、10.53% 和 
8.61%， 前 四 个 主 成 分 累计 贡献 率 已 经 达到 近 
80%。 但 是 考虑 到 如 果 选 取 的 主 成 分 数量 较 少 ， 
可 能 会 导致 后 续 试验 中 因为 训练 数据 过 少 而 出 现 
欠 拟 合 现 象 ， 因 此 选取 降 维 后 的 前 14 个 主 成 分 ， 
其 贡献 率 以 及 累计 贡献 率 如 表 2 所 示 。 
表 2 PCA 降 维 后 14 个 主 成 分 贡献 率 及 累计 贡献 率 

Table 2 Contribution rate and cumulative contribution rates 


of 14 principal components after dimension reduction of PCA 


主 成 分 编号 “PC1 PC2 PC3 PC4 PC5 PC6 PC7 


贡献 率 /% — 43.69 14.19 10.53 8.61 4.87 423 3.06 


累计 贡献 率 /% 43.69 57.88 68.41 77.02 81.89 86.12 89.18 


主 成 分 编号  PC8 PC9 PCIO PCII PC12 PCI3 PC14 


贡献 率 /% 222 177 113 104 0.71 0.56 0.46 


累计 贡献 率 /% 91.40 93.17 94.31 95.34 96.05 96.61 97.07 


从 表 2 中 可 以 观察 到 前 五 个 主 成 分 累计 贡献 
率 已 经 达到 81.89%， 前 十 个 主 成 分 累计 贡献 率 
达到 94.31%， 从 第 十 四 主 成 分 (PC14) 开始 ， 
后 续 主 成 分 所 提供 的 贡献 率 渐渐 小 于 0.3%， 已 
经 较 难 提供 更 多 原始 数据 中 的 信息 。 考 虑 主 成 分 
的 个 数 以 及 累计 贡献 率 之 间 的 关联 ， 为 了 后 续 试 
验 分 类 的 准确 性 ， 选 取 累 计 贡 献 率 达到 97.0796 
的 主 成 分 ， 即 前 14 个 主 成 分 。 
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3.2 建 模 方法 与 结果 


试验 中 采用 BPNN、SVM 与 RF 三 种 建 模 方 
法 构建 霉 心 病 果 、 好 果 分 类 模型 ， 三 组 试验 中 输 
入 特征 变量 都 为 经 PCA 处 理 后 的 主 成 分 变量 ， 
三 组 试验 彼此 独立 进行 ， 对 比 模型 分 类 效果 后 选 
择 分 类 效果 最 理想 的 模型 作为 最 终 分 类 模型 。 为 
后 续 表 述 简洁 ， 三 组 试验 分 别 以 PCA-BP、 
PCA-SVM 和 了 PCA-RF 表 示 。 
3.2.1 PCA-BP 模型 参数 的 选择 与 设 定 

本 研究 所 使 用 的 BP 神 经 网 络 为 三 层 BP 神 经 


1 一 10 之 间 的 常数 。 

试验 中 输入 层 节 点 个 数 设置 为 13， 输 出 层 节 
点 个 数 设 置 为 1，aw 取 值 设 置 为 5， 因 此 隐藏 层 节 
点 个 数 设置 为 9。 

考虑 到 模型 中 不 同 阶段 会 使 用 到 不 同 的 学 习 
速率 ， 因 此 设置 学 习 速 率 时 并 没有 固定 学 习 速 
率 ， 而 是 根据 变 学 习 率 公式 进行 动态 调节 ， 变 学 
习 率 公式 如 下 所 示 : 

XU) aut 3 Mass has (3) 

其 中 ，n% 为 最 大 学 习 率 ; 1 为 最 小 学 习 
率 ; ti 为 最 大 迭代 次 数 ， 次 ; 1 为 当前 迭代 次 


网 络 ， 包 含 输入 层 、 隐 藏 层 以 及 输出 层 。 该 模型 
中 使 用 Sigmoid 函数 作为 传递 函数 ， 影 响 该 模型 
分 类 效果 的 因素 包括 隐藏 层 神经 元 个 数 、 初 始 权 
值 、 学 习 速 率 以 及 期 望 误 差 。 增 加 隐藏 层 神经 元 
的 个 数 相 较 于 增加 隐藏 层 的 层 数 从 结构 实现 角度 
而 言 更 加 简单 ， 也 可 降低 模型 的 复杂 度 。 隐 藏 层 
神经 元 太 少 时 ，BP 神 经 网 络 无 法 很 好 地 进行 学 
习 ， 和 迭代 次 数 也 会 延长 ， 模 型 精度 不 够 。 隐 藏 层 
神经 元 个 数 太 多 时 ， 网 络 的 学 习 时 间 会 逐步 增 
加 ， 同 时 也 容易 出 现 过 拟 合 现象 。 初 始 权 值 的 选 
择 会 影响 后 续 网 络 训练 的 复杂 度 ， 合 理 的 初始 权 
值 会 有 效 降 低 模型 训练 时 间 ， 反 之 不 合理 的 初始 
权 值 会 增加 模型 训练 代价 。 学 习 速 率 同 样 会 对 模 
型 的 训练 及 精度 产生 影响 ， 过 大 的 学 习 精 度 可 能 
会 导致 模型 不 稳定 ， 同 时 也 有 可 能 会 跳 过 最 优 
解 ， 过 小 的 学 习 精 度 会 导致 收敛 速度 过 慢 ， 从 而 
需要 花费 更 多 的 训练 时 间 。 

模型 中 如 采用 固定 值 作为 初始 权 值 ， 则 会 导 
致 隐藏 层 节 点 都 具有 相同 的 计算 结果 ， 进 而 导致 
模型 的 收敛 速度 将 大 幅 降低 。 因 此 为 保证 模型 的 
收敛 速度 ， 防 止 出 现 梯度 消失 或 者 梯度 爆炸 现 
象 ， 因 此 将 初始 权 值 设 定 为 (-1，1) 之 间 的 随 
机 数 ， 期 望 误差 设置 为 0.001， 隐 藏 层 节 点 个 数 
按照 经 验 公 式 ， 并 结合 试 凑 法 确定 最 佳 隐 藏 层 节 
点 数 。 经 验 公式 如 下 所 示 。 

h=J/mt+nt+a (2) 

HB. ACY Be Bt, 个; m 为 输入 
层 节 点 数量 ,个 ; nie AX T: a 为 


HW. Ko 

本 试验 中 最 大 学 习 率 设置 为 0.1， 最 小 学 习 
率 设置 为 0.0001， 最 大 迭代 次 数 设置 为 3000。 
3.2.2 PCA-SVM 模型 参数 的 选择 与 设 定 

SVM 通过 将 原始 数据 进行 映射 ， 使 其 在 高 
维 空间 中 线性 可 分 ， 影 响 SVM 分 类 效果 的 参数 
主要 有 核 函 数 、 多 项 式 维度 、 停 止 训练 的 误差 值 
大 小 、 最 大 迭代 次 数 、 是 否 采 用 概率 估计 、 惩 罚 
BRC. KRM Gamma SMF, HP wa 
EG Uf] E KAYA EE PRR I. 、Gamma 以 及 C。 径 
[a] XE pK BW (Radical Basis Function, RBF) 可 
以 实现 非 线性 映射 ， 减 少数 据 计 算 难 度 ， 同 时 
RBF 所 涉及 的 参数 较 少 ， 相 较 于 其 他 多 项 式 核 函 
数 可 以 有 效 降低 模型 的 复杂 度 ， 因 此 本 研究 中 选 
FE RBF EJ EZ FR, C 与 Gamma 的 选取 采用 了 
网 格 搜索 化 方法 ， 该 方法 只 需 将 参数 输入 进去 ， 
即 可 自行 进行 调 优 ， 选 取 最 优 的 参数 。 本 人 研究 将 
C 和 Gamma 的 原始 参数 分 别 设置 为 [0.001, 
0.01, 0.1, 0.5, 1, 1.5, 2, 3, 4, 5, 10, 100, 
1000] 和 [0.001, 0.005, 0.0001, 0.0005, 
0.00001，0.00005 ] ， 经 过 采用 十 折 交 又 验证 法 进 
行 相关 试验 之 后 ， 最 终 得 到 的 最 优 参数 组 合 为 C 
取 3，Gamma 取 0.0005。 
3.23 PCA-RF 模型 参数 的 选择 与 设 定 

随机 森林 是 由 一 系列 决策 树 构 成 的 强 分 类 
器 ， 其 分 类 能 力 的 强 弱 取决 于 所 构建 的 决策 树 的 
分 类 能 力 ， 主 要 影响 的 参数 包括 节点 分 裂 时 所 需 
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72 
的 最 小 样本 数量 (min split)， 叶 子 节 点 最 少 样 表 3 RF 部 分 参数 选择 
本 数量 (min leaf) ， 分 裂 所 需 最 小 增益 Table 3 Partial parameter selection of random forest 
(min split _gain) ， 采 样 方式 ( sapling aede, ee sud min split g sampleing | 
随机 和 森林 中 决策 树 数 量 (tree num) ， 决 策 树 高 = mody 
度 (tree depth) 等 。 经 预 试验 最 佳 参数 组 合 如 参数 取 值 6 2 10e* sqrt 
表 3 所 示 。 

ii 林 规 模 下 分 别 将 决策 树 设置 为 不 同 的 深度 ， 通 过 


同时 为 了 更 加 深入 比较 决策 树 数量 及 决策 树 


ee 比较 每 种 不 同 规模 森林 及 不 同 决策 树 高 度 下 分 类 
fay BE A 影响， 将 森林 规 HIL 的 准确 率 及 训练 时 间 ， 从 而 选取 最 为 合适 的 森林 


d ol M" m n 100, 200, 3005 REESE. A LEAR BAR IRE 
每 棵 决策 树 的 最 大 深度 设置 为 : 3, 5, 10, 15, 高 度 分 类 准确 率 如 图 6 所 示 。 
20，25，30，35，40，45，50。 试 验 中 在 每 种 森 


Tree num =5 


0.95r i 
-7 L 一 一 Tree_ num = 
0.90 Ex& = 600 - - -Tree num - 15 
2 — --Tree num = 20 
0.85 F 500 F — - - Tree num = 25 
x ae --- Tree num = 50 
x oor y A 400 |... D Umm Tree num = 100 
E 0.5- Ks Tree num 5 = | ——-—-Tree num = 200 
起 ^ = =Tree_num =10 En 300 |^ Tree num = 300 
= 0.70 - . - -Tree num - 15 Es 
ibl Loris unus 2 W——— 
0.60 F 7-- Tree num = 50 "d 
perte Tree num = 100 100} .------------------------------------- 
0.55 + 一 Tree num = 200 二 -一 -一 -- 一 -- 一 -- 二 -一 -- 一 -- 一 -- 一 - -二 … 一 
| Tree num = 300 oe ee m m De mi dE me Aa m S EA UE DE S. dE 
0.50 L 1 L 1 L L L 0 
3 5 10 15 20 25 30 35 40 45 50 10 20 30 40 50 
决策 树 最 大 高 度 决策 树 最 大 高 度 
(a) 不 同 规模 森林 及 不 同 树 高 度 分 类 准确 率 对 比 (b) 不 同 规模 森林 及 不 同 规模 树 高 度 耗 时 对 比 
上 0. 257 0. 0. 257 
0.96 500 
0.95 - / 
0.94 - 400 
E 0.93 - 0.929 à, 0.922 0.925 0.925 aN 
an = 
€ 092r oo o | x 300 
E ou ~ A = 
^ 200 
R osol W 
0.89 - 100 
45.4 
0.88 - 676 1 15.3328.1132.80 一 as 
0.87 : ! ! 1 1 1 1 1 1 0 
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森林 规模 森林 规模 


(d) 不 同 规模 森林 平均 训练 时 间 


(Cc) 不 同 规模 森林 最 高 识别 准确 率 


图 6 RF 森林 规模 及 树 深度 对 分 类 效果 的 影响 


Fig. 6 Effects of forest size and tree depth on the classification of random forest 


从 图 6 (a) 中 可 以 观察 到 ， 当 森林 规模 控制 。 控制 到 5、10 和 15 时 识别 准确 率 较 低 ， 在 不 同 决 
在 20 和 25 时 都 可 以 获取 较为 不 错 的 分 类 准确 率 ， ” 策 树 深度 下 ,识别 准确 率 有 和 较 大 的 波动 。 与 此 同 
最 高 分 类 准确 率 都 可 达到 95% 以 上 。 当 和 森林 规模 时， 当 和 森林 规模 较 高 时 ， 同 样 可 以 获取 较为 准确 
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的 识别 准确 率 。 但 是 从 图 6 (b) 中 可 以 看 出 ， 随 
着 森林 规模 的 增加 ， 搭 建 分 类 模型 所 需 的 时 间 将 
逐步 增加 ， 当 森林 的 规模 超过 50 时 ， 训 练 所 需 
的 时 间 将 大 幅 上 升 。 所 以 将 森林 的 规模 控制 在 50 
以 内 会 是 较 好 的 选择 。 结 合 图 6 (a) 与 图 6 (b) 
可 得 到 ， 虽然 森林 规模 较 高 时 分 类 模型 同样 具有 
较 好 的 分 类 准确 性 ， 但 是 其 训练 耗 时 远 远 超过 和 森 
林 规 模 较 小 时 的 训练 耗 时 。 因 此 ， 为 了 避免 漫长 
的 训练 耗 时 ， 应 该 选择 较 小 的 森林 规模 。 

为 了 更 加 清晰 地 比较 不 同 规模 森林 的 识别 准 
确 率 和 耗 时 ， 提 取 了 每 种 森林 规模 下 的 最 好 分 类 
准确 率 和 平均 试验 耗 时 ， 如 图 6 (c) 和 图 6 (d) 
所 示 。 从 图 中 可 以 观察 到 ， 当 森林 规模 为 20 和 
25 时 拥有 着 最 高 的 识别 准确 率 ， 同 时 训练 耗 时 也 
较 少 。 因 此 应 该 选择 森林 规模 和 决策 树 深度 分 别 
为 (20，20) fü (25, 40) 作为 下 一 步 试验 参 
数 ， 以 期 望 获得 更 好 的 分 类 效果 。 

为 进一步 获取 更 加 准确 的 试验 结果 ， 根 据 上 
文中 取得 的 表现 较 好 的 森林 规模 和 决策 树 深度 ， 
进行 十 折 交 又 验 证 试验 。 将 原始 数据 分 成 相等 的 
十 份 ， 每 次 取 其 中 的 一 份 作 为 测试 集 ， 将 剩余 九 
份 作为 训练 集 ， 最 终 取 十 次 结果 的 平均 值 作为 最 
终 的 分 类 准确 率 ， 试验 结果 如 图 7 所 示 。 

从 图 7 可 以 明显 看 出 ， 当 森林 规模 为 20、 决 
策 树 深度 为 20 时 ,分 类 模型 的 分 类 准确 率 要 优 
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图 7 随机 森林 十 折 交 又 验证 分 类 准确 率 
Fig.7 Ten-fold cross validation classification accuracy of 
random forest 
于 另 一 组 ， 两 者 的 平均 识别 准确 率 分 别 为 0.946 
和 0.936。 因 此 ， 在 森林 规模 为 20、 决 策 树 深度 
为 20 时 可 以 取得 最 优 的 分 类 效果 ， 最 高 分 类 准 
确 率 可 达 0.957。 
3.2.4 ”模型 结果 分 析 
将 原始 苹果 介 电 参数 经 过 PCA 降 维 得 到 的 
主 成 分 与 经 过 破坏 性 试验 所 得 到 的 苹果 标签 (其 
中 标签 为 “1” 表 示 为 性 心病 果 ， 标签 为 “0” 表 
示 为 正常 果 ) 组 合 起 来 作为 模型 输入 变量 ,分 别 
输入 PCA-BP，PCA-SVM 和 PCA-RF 三 种 模型 
中 ,三 组 模型 的 最 优 识 别 准确 率 结果 如 表 4 
所 示 。 


表 4 三 种 模型 识别 准确 率 对 比 


Table 4 Recognition accuracy of three models 


训练 集 误 判 数 


测试 集 误 判 数 


建 模 方法 好 果 p 分 类 准确 率 /% 好 果 SHE 分 类 准确 率 /% 
(40 个 ) (110 个 ) (16 个 ) (54 个 ) 

PCA-SVM 2 8 93.33 2 4 91.43 

PCA-BP 2 4 94.66 1 3 94.29 

PCA-RF 1 4 96.66 0 3 95.71 


从 试验 结果 上 可 以 观察 到 ，PCA-RF 的 分 类 
效果 最 好 ， 训 练 集中 识别 准确 率 达 到 96.6696, 
训练 集中 150 个 苹果 的 错 分 样本 数 只 有 5 个 ， 误 
判 率 仅 为 3.33%。PCA-RF 在 共 70 个 苹果 组 成 的 
测试 集中 也 有 着 最 好 的 表现 ， 分 类 准确 率 达 到 


95.71%。 错 分 样本 共计 3 人 个， 其中， 好 果 全 部 可 
以 正确 分 类 ， 霉 心病 果 中 有 3 个 样本 被 错 分 为 好 
果 。PCA-BP 模型 的 分 类 效果 仅 次 于 PCA-RF， 
其 在 训练 集中 分 类 准确 率 达 到 94.66%， 测 试 集 
中 分 类 准确 率 为 94.29%， 训 练 集中 错 分 样本 为 6 
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个 ,测试 集中 错 分 样本 为 4 个 ， 分 类 效果 与 
PCA-BP 相似 。PCA-SVM 模型 分 类 效果 相对 较 
差 ， 其 在 训练 集中 分 类 准确 率 可 达 93.33%， 但 
在 测试 集中 分 类 准确 率 仅 能 达到 91.43% ， 错 分 
样本 量 在 训练 集 和 测试 集中 分 别 为 10 个 和 6 个 ， 
误 判 率 分 别 为 6.66% 和 8.57%。 

从 表 4 可 以 观察 到 三 组 模型 出 现 误 判 时 将 霉 
心病 果 误 判 为 好 果 的 比例 要 大 于 将 好 果 误 判 为 霉 
心病 果 的 比例 ， 三 组 数据 组 合 起 来 ， 出 现 误 判 的 
样本 共计 34 条 ， 其 中 霉 心病 果 误 判 为 好 果 占 据 
26 条 ， 占 比 达到 76.5%， 而 将 好 果 误 判 为 考 心 病 
果 的 样本 数 共计 8 条 ， 所 占 比例 为 23.5%。 具 体 
到 每 个 模型 中 ， 以 PCA-RF 为 例 ， 训 练 集 和 测试 
集中 错 分 样本 共计 8 条 ， 其 中 霉 心病 果 错 分 为 好 
果 的 数量 为 7 条 ， 其 比例 达到 87.5%。 总 体 而 言 ， 
将 霉 心病 果 错 分 为 好 果 的 概率 要 远大 于 将 好 果 错 
分 为 霉 心病 果 的 概率 ， 导 致 这 种 现象 出 现 的 原因 
可 能 是 由 于 样本 中 存在 一 些 霉 心 果 的 症状 较为 轻 
微 ， 还 未 大 幅 影响 苹果 的 介 电 特 征 ， 所 以 导致 模 
型 分 类 时 将 其 错 分 为 好 果 。 


4 结论 


本 研究 针对 霉 心病 果 分 类 这 一 具体 问题 ， 使 
用 BPNN、SVM 和 REF 三 种 建 模 方法 ， 结 合 数据 
标准 化 、 主 成 分 分 析 算 法 等 预 处 理 方法 构建 出 利 
用 苹果 9 种 频率 下 12 项 介 电 指标 进行 训练 的 霉 心 
病 果 分 类 模型 。 试 验 结果 表明 ， 使 用 RF 构建 的 
模型 分 类 效果 更 佳 ， 在 测试 集中 最 高 分 类 效果 达 
到 96.66%, BPNN 所 构建 模型 效果 次 之 ， 测 试 集 
中 分 类 效果 达到 94.29%, SVM 所 构建 模型 分 类 
效果 相对 其 余 两 种 方法 效果 较 差 ， 测 试 集 中 分 类 
效果 仅 为 91.43%。 

本 研究 构建 的 苹果 霉 心病 分 类 模型 可 以 有 效 
地 分 辨 出 霉 心病 果 和 好 果 ， 有 效 地 将 苹果 介 电 参 
数 与 苹果 霉 心 病 检测 结合 到 一 起 ， 可 为 后 续 研 究 
奠定 基础 。 

与 已 有 人 研究 相 比 ， 本 研究 中 使 用 了 不 同 的 数 
据 预 处 理 及 建 模 方 法 ， 所 构建 的 苹果 霉 心病 检测 


模型 更 为 有 效 ， 窒 心病 果 的 识别 准确 率 有 了 较为 
明显 的 提高 ， 但 与 此 同时 本 研究 仅 针对 “富士 ” 
这 一 种 苹果 ， 未 对 比 其 他 苹果 品种 的 分 类 准确 
率 ， 在 接 下 来 的 研究 中 可 以 采集 不 同 品 种 苹果 介 
电 参数 ， 对 比 不 同 品种 下 模型 效果 ， 提 高 模型 通 
用 性 。 
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Abstract: Apple mouldy core disease often occurs in the ventricle of apples and cannot be effectively identified by appearance. 
Near-infrared spectroscopy, nuclear magnetic resonance and other methods are usually used in traditional apple mouldy core dis- 
ease detection, but these methods require complex equipment and high detection costs. In this research, a simple and fast nonde- 
structive detection method of apple mouldy core disease was proposed by using a dielectric method to construct an apple 
mouldy core disease detection model. Japan's Hioki 3532-50 LCR tester was used to collect 108 dielectric indicators (12 dielec- 
tric indicators at 9 frequencies) of 220 apples as the original data. Due to the large differences in the distribution of data collect- 
ed with different dielectric indexes and different frequencies, a standardized method was used for data preprocessing to elimi- 
nate the problem of large differences in dielectric data distribution. Afterwards, in order to eliminate the redundant information 
between the data, the principal component analysis algorithm was used to reduce the data dimensionality, and finally the three 
algorithms of BP neural network (BPNN), support vector machine (SVM) and random forest (RF) were used to construct the 
mouldy core disease detection model. After pre-experiment, the most effective parameters of each algorithm were selected, the 
test results showed that the apple mouldy core disease detection model based on the RF algorithm obtained the best perfor- 
mance, and the detection accuracy rate reached 96.66% and 95.71% in the training set (150 apples) and the test set (70 apples). 
The mouldy core disease detection model constructed by using BPNN was the second most effective, and the detection accuracy 
could reach 94.66% and 94.29%, respectively. The detection effect of the model built by using SVM was relatively poor, and 
the detection accuracies were 93.33% and 91.43%, respectively. The experimental results showed that the model constructed by 
using RF can more effectively identify mouldy core disease apples and healthy apples. This study could provide references for 
apple diseases and insect pests and non-destructive testing of apple quality. 


Key words: apple mouldy core disease; dielectric characteristics; random forest; BP neural network; support vector machine 
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